DiscoverCode of LeadershipReview of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems
Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Update: 2025-10-16
Share

Description

Третья серия подкаста с разбором крутой книги "AI Engineering", которая дает представление об оценке как самих foundation models, так и приложений на их основе. Книгу разбирает Александр Поломодов, технический директор Т-Банка, а также Евгений Сергеев, engineering director в Flo. Собственно, в этой серии мы обсудили две главы: "Chapter 3: Evaluation Methodology" и "Chapter 4: Evaluate AI Systems". Ну а если раскладывать по темам, то они представлены ниже



  • Введение и тема выпуска

  • Почему оценка ИИ‑приложений сложна; рост важности валидации

  • Валидация в пайплайнах и сложности доменов

  • Ограничения бенчмарков и переход к продуктовой валидации

  • Риски неконтролируемой генерации

  • Теория информации: энтропия как база метрик

  • Кросс‑энтропия и KL‑дивергенция для оценки моделей

  • Перплексия и влияние контекста на уверенность модели

  • Функциональная корректность vs нефункциональные требования

  • От лексической к семантической близости; эмбеддинги

  • Паттерны валидации и AI as a judge

  • Попарные сравнения и ранжирование моделей; транзитивность и голосования

  • Каркас системы: критерии → выбор моделей → сборка пайплайнов

  • Факт‑чек и референс‑чек; доверенные источники; человеческий бейзлайн

  • Дизайн пайплайна: независимые тесты, гайдлайны, разметка; финальные выводы

Comments 
In Channel
loading
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems

Review of Book "AI Engineering" #3 - Chapter 3 & 4: Evaluation Methodology и Evaluate AI Systems